语言技术|方言语料库简介
由于微信公众号平台推出新功能,“语言资源快讯”左边显示的名称并非原作者,而是公众号管理者,原作者将于文末显示,感谢各位读者的谅解!
方言语料库提供方言语音语料及其转写文本、标注信息。语音可以来自文本朗读的言语、有构思的流畅言语或自然话语,比如广播影视材料、童谣、既定话题的对话、单方叙述、电话录音等。
用处不小
方言语料库的作用主要体现在:
1. 保存语言实态。
方言话语保留着许多较古老的语言要素和文化内容, 会随着社会迅速的发展变化而在较短的时间内流失,特别是近几十年来,汉语方言在词汇、功能、使用人群方面已经发生了较大变化。方言语料库可以记录某阶段汉语方言的真实面貌,保存、保护方言语音资料以及具有社会历史价值的语言文化遗产,能够成为民间传统文化的典藏库。
2. 推进我国语言科学的发展。
方言语料库集文本、语音和声学参数三种形式,能够为语言研究提供大量的语料和技术参数,便于进行检索、统计,为语音现象的大规模研究带来便利,使研究成果更为客观、可靠,可用于实验语音学研究、汉语教学与研究、语言资源数字化、语言工程等方面的研究。用有声数据库训练机器,可以帮助机器识别各地方言,提高语言信息化的水平。语言信息化的成果, 又可以用于语音识别、语音合成、人机语音交换的多种领域,促进生产和生活的信息化。
怎么建库
方言语料库的建设大致可分为3大步:
1.语料的收集
包括选择语料收集点、选择发音人、确定发音素材和采录。发音素材可以是朗读文本,利用《方言调查字表》、结合该方言声、韵、调的特点设计文本语料;也可以收集自然口语语料,通过实地捕捉、主题对话、问路、媒体节目等方法采录自然话语。
2.语料的整理和加工
包括核音、转写和标注。对录音语料应进行整理、反复核音。转写一般有三类文本:一是音频的普通话对译,二是音频的国际音标注音,三是转写汉字文本的普通话拼音注音。标注的丰富程度和精细程度取决于对研究所需的分析深度,例如每个词的分割、词性、时态、语态,对话中的话轮、中断、背景声、停顿、韵律、语气、情感,每句话的句法结构等等。标注得越丰富、越精细,对数据的挖掘就越深越广。基本标注应包括词类、时间戳、话轮记号;附标注可以涉及语音、词汇、语法、语义、语用等各层面的特征。
3.数据库及其管理系统的建立
方言语料库的数据库可包含四大数据模块:一是发音人的背景属性模块,包括发音人的姓名、性别、族别、年龄、长期居住地、受教育程度、职业等;二是原始语音语料模块;三是与语音语料所对应的文本模块;四是对语音语料进行深加工后的语音标注数据和语音的声学分析数据模块。
(音视频转写标注软件ELAN的操作界面。图源:The Language Archive)
做起来很费劲
开放能用的很少很少
以上仅仅是方言语料库的简要介绍,一方面省略了很多细致的内容,如采录过程中还应注意的语速、音量、录音环境等很多语言或非语言因素,以及声学分析、建库、标注软件等辅助工具尚未提及;另一方面可能存在不够准确之处,感兴趣的你请查看更多相关资料吧。总而言之,构建方言语料库是一项复杂的工作,需要付出大量人力物力。
本期编辑|阿晴
责任编辑|老甘
投稿邮箱|jnufyzx@163.com
往期回顾
语言技术 | 范俊军、彭志峰:《多媒体语料转写标注教程》前言
←长按关注
保护母语方言
你我共同努力
做语言资源保护公众号不容易,每天更新公众号、提供新语料尤其不容易。希望各位通过打赏来支持我们的事业,谢谢!↓↓↓